Подаци о врсти транспорта

Студент: Стефан Ковач 4003/2020

Професор: Ненад Митић

Асистент: Мирјана Маљковић

Индустрија 4.0, Математички факултет и Машински факултет, Универзитет у Београду

У овом скупу података налазе се подаци о мерењима сензора у различитим врстама транспорта. Од сензора су коришћени акцелерометри који мере убрзање (уствари се мери сила која делује на сензор), жироскопи који мере угаону брзину и сензори који мере јачину звука. Врсте транспорта у којима су вршена мерења су аутобус, воз, аутомобил, шетање и мировање.

Пробаћемо да направимо што бољи модел за предвиђање врсте транспорта у на основу мерења са сензора користећи технике истраживања података.

Средње вредности атрибута, груписаних по вредности циљног атрибута.

Од података које користимо за предвиђање врсте транспорта имамо дужину временског интервала у којем су вршена мерења са сензора и за сваки сензор имамо средњу вредност, стандардну девијацију, минимум и максимум измерених вредности у том временском интервалу.

Делимо податке на тренинг и тест скуп и вршимо стандардизацију података.

KNN алгоритам

Тестирамо различите параметре за обучавање модела са алгоритмом К најближих суседа, користећи унакрсну валидацију. Затим штампамо извештај о понашању модела над тренинг и тест скупом.

Видимо да се модел преприлагодио тренинг скупу. Пошто су најбољи параметри узети за параметар n_neighbors узели вредност 3 (најмањи од свих разматраних), покушаћемо да повећамо број суседа, како бисмо добили мање прилагођен модел.

Модел је и даље преприлагођен. Сада ћемо узети униформну тежину за вредновање тежина суседа.

Модел је сада мање преприлагођен, али нема бољи резултат на тест скупу.

PCA анализа компонената

Прво ћемо урадити PCA анализу на цео скуп података

Искористићемо прва два најзначајнија фактора како бисмо графички приказали цео скуп података.

Сада ћемо урадити PCA анализу обучавањем само над подацима за тренинг скуп. Направићемо нови модел, који ће уместо стандардизованог скупа свих атрибута за предвиђање користити редукован скуп атрибута који ћемо добити PCA анализом.

Графички приказујемо кумулативну варијансу добијених фактора почевши од најзначајнијег.

Видимо да 9 најзначајнијих фактора имају кумулативну варијансу преко 99%. Стога ћемо њих користити за класификацију.

И даље су нам модели слични као и кад смо користили цели скуп атрибута, па закључујемо да се коришћењем KNN алгоритма не може направити пуно бољи модел за овај проблем.

Дрвета одлучивања

Тестирамо различите параметре за обучавање модела са дрветима одлучивања, користећи унакрсну валидацију. Затим штампамо извештај о понашању модела над тренинг и тест скупом.

Покушавамо опет са мало већом дубином

Додајемо и ограничење за минималну добит. Цртамо дрво да бисмо видели који су најзачајнији атрибути при одлучивању дрвета.

Закључујемо да су се дрвета лошије показала за класификацију у овом проблему односу на алгоритам К најближих суседа.

Вештачке неуронске мреже

Тестирамо различите параметре за обучавање модела са вештачким неуронским мрежама, користећи унакрсну валидацију. Затим штампамо извештај о понашању модела над тренинг и тест скупом.

Користићемо атрибуте добијене PCA анализом, као у улаз у вештачку мрежу.

Узећемо најбоље параметре и повећати број неурона, пошто је за најбољи узет онај са највише неурона и слојева од понуђених.

Сада смо мало побољшали прецизност на тест скупу, али је модел преприлагођенији.

SPSS modeler

Сада ћемо у програму SPSS modeler обучити још модела за класификацију коришћењем 2 алгоритма: C5.0 и Метод подржавајућих вектора (SVM)

C5.0 алгоритам

Најзначајнији атрибути gyroscope#mean, accelerometer#min, accelerometer#max, gyroscope#min са значајношћу од 0.14, 0.10, 0.07 и 0.07 респективно.

Добијамо опет преприлагођен модел.

Дубина дрвета је 21.

Цртамо 3д график, на основу 3 најзначајнија атрибута.

Видимо да се сензоре мере највеће ротационо кретање када је у питању шетња као врста транспорта.

Метод подржавајућих вектора (SVM)

Прво смо урадили PCA анализу.

Пошто првих 6 компонената по значајности има кумулативну варијансу од 97.48%, њих ћемо узети за даље обучавање модела.

Сада ћемо направити неколико модела коришћењем SVM алгоритма са различитим параметрима.

Kernel : Radial Basis Function

Kernel : Sigmoid Function

Kernel : Polynomial Function

Kernel : Linear Function

Од свих модела које смо обучавали алгоритмом SVM најбоље се показао модел који је користио линеарни кернел и регуларизациони параметар C=8. На тренинг скупу је остварио прецизност од 60%, а на тест скупу 57%.

Закључак

Највећу прецизност од свих модела које смо направили је остварио модел направљен алгоритмом К најближих суседа.

На тренинг скупу је остварио 100% прецизност, док је на тест скупу остварио прецизност од 85%.

Параметри које је користио су: {'n_neighbors': 3, 'p': 1, 'weights': 'distance'}

Ипак, за најбољи модел ћемо узети стабилнији модел који је такође направљен алгоритмом К најближих суседа, али који је користио следеће параметре за обучавање: {'n_neighbors': 5, 'p': 1, 'weights': 'uniform'}

Његова прецизност на тренинг скупу је 89%, док је 83% прецизност на тест скупу.